其他
撰文 | 微胖
答:我相信最有可能的结果就是,我们会见到一个更为竞争的世界,而且中国会是重要的参与者。
与此同时,我们会见到更平衡的美中关系,在贸易政策等议题上尤其如此。
问:你认为川普会连任吗?
答:我想他不会连任。我认为他会在选举中失利。」
这是一段发生在2020年的采访。提问方是大名鼎鼎的《经济学人》,你能猜到接受采访的是谁吗?
GPT-2 !一个利用 40GB 互联网文本训练的无监督语言模型:只要给它提示,例如问题或故事的第一句话,它就会顺着提示往下接。
当然,不止这些。从写诗作赋、搜索答题、写代码甚至预测蛋白质三维折叠结构,GPT-2 和它代表的大模型(foundation model)正展示出早期 AI 模型所不具备的通用性、适应性。据说,一只狗(其实也包括笔者)看不懂的《纽约客》 笑话,PaLM 也能读懂笑点。
这种经过数十亿次猜测、比较、改进、猜测循环「涌现」出的能力,与人类理解力和创造力更加靠近,甚至让设计者惊讶。这预示着一场革命的到来,《经济学人》称,这场革命将会影响到当年工业革命未曾触及的高级脑力劳动。
目前,超过 80% 的人工智能研究现在都集中在大模型上——包括微软、 Meta 、 Google 、特斯拉等公司,研究机构艾伦人工智能研究所负责人 Oren Etzioni 曾估计。
初创公司也在涌入。根据数据提供商 PitchBook 数据,2021 年美国风险投资家向人工智能公司投资了创纪录的 1150 亿美元。其中,解决关键基础设施的挑战正成为一个越来越吸引人的领域。北京智源人工智能研究院发起的超大规模预训练模型研究项目 「悟道」表明,中国正在将该领域作为国家重点。一批新的创业者——拥有顶尖名校专业背景的预训练模型团队入场了。
虽被寄予厚望,但到目前为止,与人工智能相关的生产率提高却不尽如人意——至少,与电力和内燃机相比,人工智能的成就令人印象深刻,但并不具有革命意义。「扩展起来很不方便。这不太符合计算机的思维。」北京面壁智能科技有限责任公司(以下简称「面壁智能」)联合创始人、 CTO 曾国洋仍记得高中实习时的经历。
六年前,曾国洋在高中期间被保送清华后,他决定去一家当红 AI 公司实习。8 岁就开始自学编程的他一直对人工智能技术抱有浓厚兴趣。「AI 领域当时非常活跃也很有前景,所以想去看看技术的最新发展。」他说道。
结果发现技术落地现状并不令人满意。「每做一个项目、每一个具体场景,基本上都要派一位非常有水平的 AI 工程师去做适配,成本支出太大了。」
就一项 AI 任务而言,首先需要懂算法的工程师设计模型,再根据业务数据训练模型。就数据量而言,至少需要几千条,有时候可能需要额外再多标注一些以达到更好的模型效果。
训练过程运行在服务器上,期间需要调校各种各样的模型参数。训练完毕后,使用事先划分好的验证集,根据一定标准择选出最好的模型拿去做推理,对外提供服务。
以数据生产环节为例。《财经》记者曾算过一笔账,一个常见 NLP 模型,训练数据样本量在5万-10万/标签,稍微复杂一些的模型,训练数据样本量要20万个。「如果样本数据需要购买,整个数据成本要占到项目总成本的接近 60%。从项目开发时间来看,数据采集、清洗、标注、增强等处理时间占到整个开发周期80%。」
今年,美国劳工统计局发布的二季度报告表明,先进数字技术并没有提升生产力—— 自疫情爆发以来,美国生产率(每小时生产产品和服务的价值)的增长率仅约为 1%,远低于 1996 年至 2004 年期间的增幅,当时生产率增长率超过 3%,也逊于美国战后 1948 年到 1972 年的年均 3.8% 的增长率。
但是,2018年,拥有 1.1 亿个参数的 BERT 大模型的出现正在改变游戏规则。当时,谷歌研究人员抛弃预先标记的数据集,使用自监督学习技术训练模型,效果惊人。2020 年,Open-AI 发布 GPT-3。它的前身 GPT-2 在一年前发布,「吞噬」掉 40GB 数据,有 15 亿个参数。GPT-3 参数暴增至1750 亿个。如今,全球最大预训练模型拥有超过十万亿个参数。
没有人知道极限在哪里。就在人们一度认为向模型添加参数正在达到边际效益递减的点时,却惊讶发现,通过向这些模型提供更多数据并增加参数数量来使此类模型变得更大时,它们会变得越来越好。
「预训练-微调」新范式让 AI 研发有了很大变化。曾国洋以文本模型为例,互联网文本非常多,我们可以非常容易地搜集大规模无标注语料,利用诸如新闻、小说等通用文本,采用自监督学习技术预训练语言模型,大模型也由此获得比较强的通用能力。
然后,再利用特定下游任务对应的训练数据进一步微调更新模型参数,让该模型掌握完成下游任务的能力。大量研究结果证明,预训练语言模型能够在自然语言处理等领域的广大下游任务上取得巨大的性能提升。
「数据成本很明显地降低了。过去,几千条数据是门槛。现在,几百条、甚至几十条业务数据就可能实现同样性能效果。」他说。还有人效,即使团队缺乏 NLP 背景算法工程师也不需要因新业务招人,大模型可以输出通用的 NLP 能力。
「根据用例的不同,大模型将数据标签要求降低了 10 到 200 倍。」IBM 研究员、IBM AI 首席技术官 Dakshi Agrawal 在接受外媒采访时曾谈道,「从本质上说,这是企业十年来的机遇。」
02 面壁与破壁
欣喜之余,现实也残酷。
上世纪 90 年代,经济史学家们开始将「通用技术(general-purpose technologies)」视为推动长期生产率增长的关键因素,比如印刷机、蒸汽机、电动机。这些「通用技术」的关键属性包括核心技术的快速改进、广泛适用于跨领域,以及溢出效应——刺激相关产品、服务和商业实践的新创新。如今,大模型的成就让 AI 看起来比过去更像「通用技术」。
但也别忘了,作为「通用技术」之一的电动机在 19 世纪 80 年代就出现了,但直到 20 世纪 20 年代,围绕这项技术重组的大规模生产装配线才真正变革了工厂生产率。始于 20 世纪 80 年代的个人电脑革命,直到 90 年代末才开始真正提升生产力,因为这些机器变得更便宜、更强大,还能连接到互联网。
百亿大模型,仅参数量就在 20G 左右,将这些参数读进来,普通计算机都要花 2 分钟,曾国洋举了个例子。无论是训练还是推理,至少需要使用 V100 这样的显卡,每块价格大约 5 万元,几十块显卡的用量意味着上百万的成本。
目前,大模型也都是由屈指可数的几家科技巨头开发——微软、 Meta 、Google、百度、阿里、华为等,包括特斯拉也在构建一个巨大模型来进一步实现其自动驾驶汽车的目标。他们还将基础设施牢牢掌控在自家手中, GPT-3 不会公开发布,只对少数人提供 API 访问权限。GPT-2 数据集也没有公开发布。
「仔细审视大模型技术与落地方案时,大家看到了挡在面前的层层『墙壁』。」面壁智能在公司官网上写道,包括内存墙、算法墙、通信墙、性能墙,甚至持观望态度的「人心之墙」。
例如,与普通规模深度学习模型相比,大模型的训练、微调和推理都需要大量算力。一部分算力需求,甚至是传统通用基础设施所不能满足的。普通企业很难承受得起这样的成本。
0.25 万美元-5 万美元(1.1 亿参数的模型); 1 万美元-20 万美元(2.4 亿参数的模型); 8 万美元-160 万美元(15 亿参数的模型)。
面对大范围内应用,大模型仍然存在着较大挑战,如何让更多学生、开发者方便享用大模型,如何让更多企业甚至政府广泛应用大模型,让大模型不再「大」不可及,成为实现大模型可持续发展的关键。
推理上,研发了 BMInf 工具包。过去在 V100 上实现的百亿大模型推理,如今在1060 显卡上也能运行。而 1060 显卡价格不过一、两千元,在家玩游戏的人都买得起。同时,面壁智能还构建了企业级推理产品,实现多机多卡推理加速。
第二,在使用方式上,将大家探索出的各种基于 Prompt 的微调方案都整合到工具包中。通过 OpenPrompt 和 OpenDelta 工具包(参数高效微调工具包)探索大模型的标准使用方式。
值得一提的是, OpenPrompt 获得了国际语言学顶会 ACL 2022 的 Best Demo。这一奖项每年全球只评选一个项目,颇具人气的 HuggingFace transformers 也曾于 2020 年获得 EMNLP 的 Best Demo,足以证明项目含金量。接下来,公司希望在此基础上探索出一套类似于标准接口的东西,让用户以一套标准方式去驱动大模型。
OpenDelta 工具包侧重于以比较经济的方式进行微调。比如,插入很小一部分参数(几十兆)就能达到全参数微调的效果,还能与其他有类似需求的用户共享它们。
例如,OpenBMB 开源社区携手清华大学自然语言处理实验室共同推出的大模型公开课,手把手带领感兴趣的同学迅速了解相关理论和实践,为进一步探索打下基础。课程在 B 站也收获了非常可观的观看量。
技术自身竖起的壁垒只是一方面。市场竞争铸造的「墙壁」也摆在这支年轻的清华团队面前。
国内,预训练模型的研发也在加速追赶。百度发布了产业级知识增强大模型「文心」, 并基于此模型形成了产业全景图。其中的跨模态生成模型 ERNIE-ViLG,首次将图像生成和文本生成统一建模,显著提升图文生成效果。此外,华为联合鹏城实验室等机构也发布了「盘古」大模型,阿里巴巴达摩院发布了多模态预训练模型 M6。
大型科技公司拥有更多资源,尤其在基础设施、用户以及业务数据方面。不过,大厂基础设施底层逻辑和架构更多还是基于之前 AI 模型(主要还是中小规模模型)的方式。在与超大模型接轨上,新来者反而没有这样的历史包袱。
对于竞争优势,面壁智能充满信心。面对市场竞争,开源软件的免费使用是非常有吸引力的获客手段,低成本试错也有助于加速创新。「基于开源路线,可以更快触达潜在用户群体,降低企业认知和决策难度。」曾国洋谈到。
大模型涉及的许多技术问题单靠一家企业来解决是比较难的,可以通过开放技术的方式,用社区的力量共同解决,共享 IP,互惠互利。公司也将之前提到的各项核心技术都浓缩在 OpenBMB 开源社区的工具包中。
值得一提的是,开源社区发起团队不仅拥有深厚的自然语言处理和预训练模型研究基础,近年来围绕模型预训练、提示微调、模型压缩技术等方面在顶级国际会议上发表了数十篇高水平论文,还有丰富的自然语言处理技术的开源经验,发布了 OpenKE、OpenNRE、OpenNE 等一系列有世界影响力的工具包,这些工具包和其他项目在 GitHub 上累计获得超过 5.8 万星标,位列全球机构第 148 位。
产业链的另一头应用侧,聚集着政府、企业、小型开发者甚至学生,通过标准接口接入基础设施,根据自身应用需求,实现业务所需的 AI 能力。
由此还可能导致另一个变革——如果说,过去的 AI 专业人员主要包括算法工程师这样的角色,那么,未来企业聘用的所谓专业人士可能更靠近今天意义上的「调包侠」——基于开源社区提供的大量优良模型、程序包,他们将精力集中在设计解决方案上,而不是源代码编写。
从泰勒,希恩斯,雷迪亚兹到罗辑,包括章北海,《三体》面壁者并不少,但成功的只有章北海和罗辑。既然要做 AI 工业化时代的「基础设施」,一个社会又不可能容许存在众多「公共承运人」,大模型市场竞争的终局不可能 「百花齐放」,皆大欢喜。
作为一家初创公司,未来的征程中会有更多无形「墙壁」等着他们去打破。除了团队都是《三体》迷,这也是为什么大家会将公司命名为面壁智能的重要原因 —— 希望能够时刻保持清醒与冷静,在关键时刻给出最有力的一击,破壁而出,创造奇迹。
7、 AI 21 Labs 的大模型训练成本分析,「谷歌 T5 预训练模型单次运行成本超 130 万美元?算力和金钱才是模型训练的王道」
8、其他参考资料